Banner duplicacion de Datos transformacion digital Blogs Datos Maestros

¿Tus colegas se quejan a menudo de la calidad de datos en informes, sistemas o bases de datos específicos?

Medición de la calidad de datos

Las personas a menudo describen los datos de baja calidad como poco confiables o no confiables. Definir exactamente qué son los datos de alta o baja calidad, por qué tienen un cierto nivel de calidad y cómo gestionarlos y mejorarlos suele ser una tarea complicada.

Dentro de la comunidad de gestión de la calidad de los datos, existe una opinión generalizada de que la calidad de un conjunto de datos depende de si cumple con los requisitos definidos. Los gerentes a menudo definen estos requisitos como resultados tales como mayores ventas, menores costos o menos defectos.

Si bien esto es importante, sin embargo, no ayuda a los profesionales de la cara del carbón a codificar reglas y otras pruebas diseñadas para medir la calidad de un conjunto de datos. Para ello se requiere una definición más específica de requisitos como los niveles de integridad o singularidad. Un ejemplo de declaración de requisitos, por ejemplo, podría ser «Todos los clientes deben tener un nombre y una dirección rellenados en nuestro sistema CRM».

img1 blog1

Las dimensiones de calidad de datos a menudo son utilizadas por los profesionales para agrupar genéricamente diferentes tipos de pruebas que generalmente abarcan diferentes requisitos del proyecto. Si bien existe cierto desacuerdo sobre el número de dimensiones y los términos utilizados para estos, muchos profesionales usan definiciones como las siguientes:

  • Integridad: requiere que una columna, elemento o clase de datos en particular se rellene y no presente valores nulos o valores en lugar de nulos (por ejemplo, N / As). ¿se rellenan todas las relaciones para una entidad en particular, por ejemplo, sus entidades matrices o secundarias?
  • Consistencia: algo que prueba si un hecho es consistente con otro, por ejemplo, género y título en una base de datos de CRM.
  • Singularidad: ¿son únicas todas las entidades o atributos dentro de un conjunto de datos?
  • Conformidad: ¿los datos se ajustan a las convenciones y estándares correctos? Por ejemplo, un valor puede ser correcto, pero seguir el formato incorrecto o el estándar reconocido.
  • Precisión: la dimensión más difícil de probar, ya que esto a menudo requiere algún tipo de verificación manual por parte de un experto en la materia (PYME).

Las dimensiones a menudo se usan no solo como una lista de verificación para verificar que se haya implementado la mejor combinación de reglas para probar la calidad de un conjunto de datos, sino que también se usan a menudo para agregar puntajes de calidad de datos para rastrear tendencias y MIS. También existen muchos métodos de medición más complejos que ayudan a traducir los resultados individuales de aprobación / reprobación en cálculos de costos, riesgos e ingresos más amigables para el negocio.

Mejora de la calidad de datos

A menudo se utiliza un conjunto diferente de habilidades y herramientas para mejorar la calidad de los datos después de que se han medido. Un buen analista de calidad de datos tiende a exhibir una combinación de habilidades que generalmente se encuentran en analistas de datos, científicos de datos y analistas de negocios, entre otros.

A nivel estratégico, una buena comprensión de la cultura corporativa, la arquitectura, la tecnología y otros factores es a menudo importante. Sin embargo, también se requieren una serie de habilidades técnicas esenciales cuando se trata de los datos en sí. Estos incluyen el análisis, la estandarización, la vinculación / coincidencia de registros, la depuración / limpieza de datos, la elaboración de perfiles de datos y la auditoría / monitoreo de datos. Estas habilidades a menudo se utilizan ampliamente cuando se llevan a cabo proyectos como migraciones de datos donde las mejoras en la calidad de los datos deben lograrse en escalas de tiempo ajustadas.

Análisis sintáctico

El análisis es el proceso de analizar datos y determinar si una cadena de datos se ajusta a uno o pocos patrones principales. El análisis es bastante fácil de automatizar si un conjunto de datos tiene un formato reconocible o predecible.

Estandarización

Cuando se reconocen los formatos principales y se completa el análisis, el siguiente paso es estandarizar el conjunto de datos. Esto se hace corrigiendo los datos de una manera predefinida que sea consistente y clara en todo el conjunto de datos.

Vinculación/coincidencia de registros (fuzzy matching)

La vinculación o coincidencia de registros describe un proceso de identificación y vinculación de registros duplicados que se refieren a la misma entidad del mundo real, pero que pueden no ser completamente idénticos en los conjuntos de datos. Por ejemplo, tener el mismo producto ingresado como “Anillo de Oro Blanco” y “Anillo, White – Oro”.

Depuración/limpieza de datos

Describe el proceso de modificación o eliminación de datos incorrectos, incompletos, con formato incorrecto o duplicados. Por lo general, una herramienta de software utiliza reglas y algoritmos para enmendar tipos específicos de errores, ahorrando al profesional de la calidad de los datos una cantidad significativa de tiempo.

Elaboración de perfiles de datos, auditoría y supervisión

La elaboración de perfiles de datos es el proceso de análisis y recopilación de información sobre los datos. Esta información se puede utilizar para métricas de calidad de datos específicas y ayudar a determinar si los metadatos/atributos describen con precisión los datos de origen. El perfil de datos es una de las principales herramientas utilizadas para la auditoría de datos, ayuda a evaluar el ajuste de los datos para un propósito específico, que a su vez se vincula con el monitoreo de datos a largo plazo que ayuda a prevenir problemas graves.

Portada Data Sheet calidad de datos

Data Sheet Calidad de Datos

¿Cómo puedo obtener una Calidad de Datos óptima en mi empresa? Conózcalo aquí, descargue ahora de forma gratuita


Descargar

Para más información: https://sitios.dane.gov.co/revista_ib/html_r3/articulo12_r3.html

Te deseamos mucho éxito y no te pierdas nuestros útiles consejos sobre como mejorar la calidad de datos que estaremos subiendo a nuestro canal de youtube https://www.youtube.com/@DatosMaestrosLATAM ¡Esperamos poder ayudarte a alcanzar tus metas con la mejora de calidad de datos con nuestros servicios y combinado con CUBO iQ® PlataForma de auditoria de calidad de datos sobre la mejora con un enfoque no invasivo de software de calidad de datos! ???

También puedes comunicarte con nosotros si tienes preguntas relacionadas con este documento o si deseas discutir sobre tu iniciativa de mejora de calidad de datos. Escríbenos a contacto@datosmaestros.com o agenda aqui sin compromiso.

agendar naranjaDescarga Cubo iQ

MANUEL SUAREZ

Manuel Suarez es el Co-Fundador y CEO de Datos Maestros, una empresa líder en el campo de la gestión de datos maestros. Padre de 4 y apasionado por la tecnologia Big Data, ML, AI y mas.

Anterior Sectores públicos en Lista de Alto riesgo 2021